[Day10] 你了解你在做機器學習時的資料嗎？ETL架構的子系統與與資料品質的衡量(5/6)

第 11 屆 iThome 鐵人賽

DAY 10

Google Developers Machine Learning

透視Google Machine Learning的奧秘系列第 10 篇

[Day10] 你了解你在做機器學習時的資料嗎？ETL架構的子系統與與資料品質的衡量(5/6)

11th鐵人賽 #gcp #machine learning

芋頭

2019-09-25 09:18:17

2413 瀏覽

分享至

前一天把維度模型部分都將介紹完，今天我們來討論ETL架構的子系統與與資料品質的衡量。

34個ETL的子系統：

Extract：1-3
Clean & Conform：4-8
Deliver：9-21
Operations：22-34

Extract萃取：

萃取是把原始來源端直接放進集結區中，直接抄寫放入集結區，盡可能不要重組或修改它，如果萃取過程中斷了，要有很高度的彈性重新啟動。

Cleaning清理：

清理的過程就是提高資料品質，例如：

單一欄位清理
跨欄位的資料一致
重複的資料清除掉

Conforming一致化：

一致化取決於我們對資料的相關背景知識有沒有很了解，通常兩個以上的資料來源要做合併，這時候就要做一致化，需要對資料特徵有高度理解，比如說要做二合一的話：

文字型：欄位名稱要一致，注意同名異意與異名同義問題
數值型：度量單位要一致

Delivering交付：

Deliver之後就是來到front room

資料品質議題

資料品質的議題如果發生在來源端：

觀察資料特徵來判斷資料，觀看它的內容、一致性、結構，比如說：最大最小值、分布、欄位缺值的狀況？
先進行評估要不要採用某個資料集，評估後的狀況是很好、不採用或是差強人意？如果說決定要用它的話需要界定出到底有多少問題要解決的？以及可應用用途為何？

如果發生在ETL端：

不是光靠擷取資料特徵就可以解決，從作業流程建立防呆機制，對過去尚未處理的資料進行補救
大部分的問題能在來源端被解決，只有少部分能夠在ETL端被解決

取用原始資料時要很小心翼翼，自己所拿到的資料不見得是百分之百正確，要透過程式或工具來觀察它的資料特徵、它的內容、一致性、結構，測試說是否符合我們的需求來評估要不要取用，如果要用的話會有多少問題是需要解決的，在使用或是在資料清理的過程中也要格外細心，所以說資料品質的問題越早發現越早處理越好，早期診斷、早期分類、早期治療，才能避免需要花大量時間補救。

今天先介紹到這，明天我們討論資料倉儲與商業智慧應用。